5 卷积神经网络

1 从全连接到卷积

3 多层感知机非常适合处理表格数据. 但是如果是一张图片, 每个像素作为一个参数, 那参数量超乎寻常. 此外, 对于图像识别, 我们需要一些额外的要求:

1.1 多层感知机的限制

记多层感知机的输入为二维图像

X

, 隐藏表示为

H

(有相同的形状的张量). 用

[X]_{i, j}, [H]_{i, j}

表示

(i, j)

处的像素, 用四阶权重张量

W

作为参数,

U

作为偏置. 则全连接层为

\begin{aligned} [H]_{i, j} & = [U]_{i, j} + \sum_{k, l} [W]_{i, j, k, l} [X]_{k, l} \\ = [U]_{i, j} + \sum_{a, b} [V]_{i, j, a, b} [X]_{i + a, j + b}, \end{aligned}

1.2 卷积

在数学上, 两个函数 (

f, g : R^{d} \to R

) 的卷积被定义为

(f * g) (x) = \int f (z) g (x - z) d z .

离散情况:

(f * g) (x) = \sum_{a} f (a) g (i - a) .

在二维情况,

(f * g) (i, j) = \sum_{a} \sum_{b} f (a, b) g (i - a, j - b) .

1.3 通道

图像的每个像素都包含了三个通道 (RGB), 因此图像实际上是一个三维张量 (例如

1024 \times 1024 \times 3

), 因此将索引记为

[X]_{i, j, k}

, 卷积也变成

[V]_{a, b, c}

.
因此,

H

也最好变成三维张量, 也即我们学习一组(而非一个) 隐藏表示, 例如一些通道学习边缘, 一些通道学习纹理.
为了更好的支持输入

X

和隐藏表示

H

的多个通道, 在

V

中添加第四个坐标:

[V]_{a, b, c, d}

. 此时

\begin{matrix} (1.2) & [H]_{i, j, d} = \sum_{a = - Δ}^{Δ} \sum_{b = - Δ}^{Δ} \sum_{c} [V]_{a, b, c, d} [X]_{i + a, j + b, c} . \end{matrix}

2 图像卷积

2.1 互相关运算

想象一个卷积核在输入上到处扫描, 由于边界的影响, 输出尺寸会略小于输入尺寸. 如果输入为

n_{h} \times n_{w}

, 卷积核尺寸为

k_{h} \times k_{w}

, 则输出尺寸为

(n_{h} - k_{h} + 1) \times (n_{w} - k_{w} + 1)

2.2 卷积层

2.3 卷积核

对于更复杂的卷积核, 如何不靠手动来设计滤波器？我们通过输入输出、梯度下降来进行学习.

3 填充步幅

为了解决卷积丢失像素的问题, 我们可以在输入的边缘填充一些 0. 假设填充的行、列卫

p_{h}, p_{w}

, 则输出尺寸变为

(h_{h} - k_{h} + p_{h} + 1) \times (n_{w} - k_{w} + p_{w} + 1) .

很多时候为了输入输出相同, 设置

p_{h} = k_{h} - 1, p_{w} = k_{w} - 1

而如果每次移动的步幅不为 1, 也会影响输出的尺寸. 假设垂直步幅为

s_{h}

, 水平步幅为

s_{w}

时, 输出形状为

4 多输入输出通道

4.1 多输入通道

当图像有多个通道, 卷积核也需要有多个通道, 他们分别进行卷积运算, 然后对通道求和得到二维张量.
Pasted image 20250430173715.png

4.2 多输出通道

输入、输出通道分别为

c_{i}, c_{o}

, 为每一个输出通道创建一个

c_{i} \times k_{h} \times k_{w}

的卷积核张量, 这样卷积核的形状为

c_{i} \times c_{o} \times k_{h} \times k_{w}

4.3 x1 卷积层

5 汇聚层/池化层

在卷积层我们学习了图像的局部特征, 现在通过 汇聚层(pooling,池化层) 将各种信息汇总到图像整体上.

以最大汇聚层为例. 事实上它们和卷积类似, 但是操作是确定性的(取最大值, 或者平均值), 不依赖卷积核之类的具体参数.
Pasted image 20250430174332.png

同样有填充和步幅.
汇聚层只会在每个通道单独运算, 不会对通道进行汇总, 因此输入输出的通道数相同.